Det här är en praktiskt användbar kurs som lär ut hur du
utvinner insikter ur datamaterial
kommunicerar insikter på ett begripligt sätt
identifierar samband
bygger enkla statistiska modeller
Var används det som kursen lär ut
Det du lär dig här används bland annat av
data scientists
business analysts
statistiker
ekonomer
forskare
… och alla andra som behöver förstå eller förklara de insikter som ett datamaterial ger
Tips inför kursen
Läs igenom kapitlet i boken före föreläsningen.
Om ett matematiskt uttryck ser svårt ut, börja med att försöka förstå notationen.
Exempel: För att förstå innebörden av \(\bar x = \cfrac{\sum_{i=1}^n x_i}{n}\)
måste du först förstå vad \(\bar x\) betyder, vad \(\sum_{i=1}^n x_i\) betyder och vad står \(n\) för.
Om du fastnar och inte hittar svar i boken, fråga!
Skjut inte upp pluggandet. Börja direkt!
Två typer av statistik
Deskriptiv statistik: Beskriv din data på ett meningsfullt sätt
Inferens: Dra slutsatser om världen utanför
Allting börjar med data
Data är allt som vi kan observeras och spara på ett eller annat sätt. Den kan vara strukturerad…
… eller ostrukturerad
Dataset, observationer och variabler
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Dataset, observationer och variabler
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Varje rad är en observation.
Dataset, observationer och variabler
Inom statistikämnet brukar en tabell som denna kallas för ett dataset.
Varje rad är en observation.
Varje kolumn är en variabel.
Glöm inte att fråga varifrån datamaterialet kommer
Vi är också intresserade av vad som inom statistikämnet brukar kallas metadata. Metadata är information om vårt datamaterial.
Vem har samlat in datamaterialet
Hur är datamaterialet insamlat?
När är materialet insamlat?
Vad betyder variabelnamnen?
Hur är variablerna kodade?
Olika typer av variabler
Vårt dataset innehåller två typer av variabler:
Kategoriska variabler
Numeriska variabler variabler.
Numeriska variabler
Har en enhet (meter, kg, kronor, grader celcius, …)
Har storlekar som kan jämföras (2 kg > 1.5 kg)
Kategoriska variabler
Kan användas för att gruppera observationerna
Ofta i form av text, men kan vara i form av tal
En numerisk variabel kan göras till en kategorisk variabel
Andra typer av variabler
Ordinala variabler kan rangordnas (till skillnad från kategoriska variabler), men har ingen enhet (till skillnad från numeriska variabler).
Exempel: Hur nöjd på en femgradig skala är du med ett köp?
ID-variabler har ett unikt värde för varje observation. Kan exempelvis vara personnumret i ett dataset med individer eller årtal i ett dataset där varje observation är ett år.
Kategoriska variabler - hur de kan beskrivas
Ett klassiskt dataset om passagerare och besättning på skeppet Titanic:
Det är svårt att få en bra överblick genom att läsa en tabell som den ovan. Vi vet det fanns 2208 personer ombord när skeppet sjönk, men hur kan vi exempelvis få en bra bild av antalet passagerare i varje klass?
Kategoriska variabler - frekvenstabeller
En frekvenstabell redovisar antalet observationer i varje kategori.
En relativ frekvenstabell visar andel istället för antal.
Summan i den relativa frekvenstabellen ska bli 100%. (\(14.67 \% + 12.91 \% + 32.16 \% + 40.26 \% = 100 \%\))
Kategoriska variabler - frekvenstabeller
Andelen i procent som tillhör grupp \(a\) räknas ut med formeln \(p_a = \cfrac{n_a}{n} \cdot 100 \%\).
Notation:\(p_a\) är andelen i procent som tillhör grupp \(a\). \(n_a\) är antalet observationer som tillhör grupp \(a\), och \(n\) är det totala antalet observationer.
Exempel: Andelen som tillhörde besättningen var \(\cfrac{889}{2208} \cdot 100 \% = 40.26 \%\)
Kategoriska variabler - frekvenstabeller
Den här är vårt första exempel på en fördelning (distribution).
En fördelning anger, något förenklat, vilka värden en variabel kan ha, och hur ofta varje värde förekommer.
Fördelning är ett nyckelbegrepp inom statistik.
Kategoriska variabler - grafiska beskrivningar
Vi sammanfatta en variabel mer pedagogiskt med ett diagram:
Att rita diagram har flera fördelar.
Vi får en snabbare och tydligare bild av en fördelning.
Vi kan se samband som är svåra att se i en tabell.
För en kategorisk variabel kan vi använda
Stapeldiagram (bar plot)
Pajdiagram (pie chart)
Kategoriska variabler - stapeldiagram (bar plot)
Ett stapeldiagram kan vara baserat på en frekvenstabell. Staplarnas höjd anger antalet observation som tillhör en viss grupp.
Ett stapeldiagram kan också vara baserat på en relativ frekvenstabell. Staplarnas höjd anger då den andel av observationerna som tillhör en viss grupp.
Kategoriska variabler - pajdiagram (pie chart)
Ett pajdiagram
fyller samma funktion som ett stapeldiagram.
ger en snabb bild av hur stor andel varje grupp utgör.
visar tydligt tydligt när andelar är ungefär 1/2 eller 1/4.
Om det är ett hål i mitten kallas det för ett munkdiagram (donut chart).
Kategoriska variabler - stapeldiagram eller pajdiagram?
Pajdiagram kan vara bättre om publiken har mindre erfarenhet av statistik, medan stapeldiagram brukar föredras av tekniskt kunnig publik.
I ett stapeldiagram är det lättare att se vilken grupp som är större, särskilt om staplarna står i storleksordning.
Kategoriska variabler - areaprincipen
Fråga: Jämför den största soptunnan med den minsta? Hur många gånger större skulle du säga att den största soptunnan är?
Kategoriska variabler - areaprincipen
Vi tenderar att främst se arean av en stapel. Därför bör en stapels area vara proportionell till storleken som den representerar. Detta kallas areaprincipen.
Grafen till vänster över hur mängden sopor har ökat är kreativ, men missvisande. Vi ser på y-axeln att den största soptunnan representerar ungefär dubbelt så stor mängd sopor som den minsta, men den är fyra gånger så stor. Stapeldiagrammet till höger ger en mer korrekt bild.
Kategoriska variabler - areaprincipen
Stapeldiagram bryter ibland mot areaprincipen genom att y-axeln har kapats, dvs y-axeln börjar inte på noll. De nedre diagrammen visar den verkliga relationen mellan staplarna.
Numeriska variabler - hur de kan beskrivas
Stapeldiagram är för kategoriska variabler. För numeriska variabler används histogram.
Histogram ser ut ungefär som stapeldiagram, men istället för kategorier representerar staplarna intervall av numeriska värden.
Till vänster ett stapeldiagram för den kategoriska variabeln Class. Till höger ett histogram för den numeriska variabeln Age.
Numeriska variabler - histogram
Varje stapel representerar ett åldersintervall på 5 år.
Vi ser vi att alla passagerare på Titanic var mellan 0 och 75 år gamla.
Den fjärde stapeln från vänster visar att drygt 200 passagerare var 15-19 år.
Numeriska variabler - histogram
När du gör ett histogram väljer du själv bredden på dina intervall.
Notera att höjden på de två markerade staplarna i det vänstra histogrammet representerar ungefär 400 personer vardera. I det högra histogrammet är de båda staplarna ihopslagna, och den sammanslagna stapeln representerar då ungefär 800 personer.
Numeriska variabler - histogram
Det finns också histogram som kallas täthetshistogram (density histogram). I ett sådant histogram prepresenterar arean av en stapel den andel av observationerna som ligger inom stapels intervall.
Exempel: Den högsta stapeln i figuren till höger (20-29 år) har en höjd som är ungefär 0.036. Stapelns bredd är 10, så arean är \(0.036 * 10 = 0.36\). Andelen personer på Titanic som var i åldern 20-29 år var alltså ungefär 36%.
Numeriska variabler - ytterligare typer av diagram
Det finns även stam- och bladdiagram (överst till vänster), punktdiagram (överst till höger) och täthetdiagram (underst).
Täthetsdiagrammet har samma form som ett histogram, men är utjämnat.
Numeriska variabler - att analysera histogram
Formen på ett histogram kan ge oss intressant information om hur värden på en variabel fördelar sig i ett dataset.
Typvärdet (mode) är det värde av en variabel som har det största antalet observationer. Det representeras av toppen av fördelningskurvan.
Symmetrin (symmetry/skewness) anger om fördelningen är symmetrisk eller sned.
Extrema värden (outliers) är observationer som ligger långt från övriga observationer.
Numeriska variabler - typvärde
Om fördelningen av en variabel har en enda topp så hittar vi typvärdet där. En sådan fördelning är unimodal. Figuren, som visar magnituden på jordbävningar, har sitt typvärde i närheten av 7.
Numeriska variabler - typvärde
En fördelning med två toppar är bimodal och har den fler toppar är den multimodal. Figuren till vänster, som visar ett index för levnadskostnader i olika städer, har en topp vid 40 och en vid 80. Kanske döljer sig två olika grupper av städer i datamaterialet.
En fördelning som är jämn utan tydliga toppar och dalar, som den till höger, kallas för en uniform fördelning.
Numeriska variabler - symmetri
Det gröna histogrammet är symmetriskt. Den högra halvan av histogrammet är på ett ungefär en spegelbild av den vänstra.
Det lila histogrammet, som visar hur mycket kvinnliga hjärtpatienter har fakturerats, är skevt åt höger (right skewed). Det kan tolkas som att många patienterna har fakturerats en summa högt över typvärdet, medan få har fakturerats långt under typvärdet.
Numeriska variabler - symmetri
Det blå histrogrammet, som visar åldern hos kvinnliga hjärtpatienter, är skevt åt vänster (left skewed). Det kan tolkas som att många patienter har en ålder långt under typvärdet, men få har en ålder långt över typvärdet.
Numeriska variabler - outliers
Extrema värden som avviker från övriga observationer brukar kallas för outliers, även på svenska.
Det blå histogrammet nedan har inga outliers. Alla Observationer ligger samlade. Det gula histogrammet har en outlier till höger om de övriga observationerna.
Numeriska variabler - outliers
Outliers kan få stora effekter i en statistisk analys.
Outliers behöver ofta utredas. De kan finnas där på grund av misstag i datainsamlingen, men de kan också vara korrekta observationer.
Om outliers tas bort ur datamaterialet måste detta dokumenteras och motiveras.
Numeriska variabler - fördelningens centrum
Vi vill ofta ha ett mått på det typiska värdet av en variabel. Vi är då ute efter ett värde vid fördelningens centrum.
Det typiska värdet identifieras enkelt i mitten av en symmetrisk fördelning.
Om fördelningen är skev är det svårare att säga vad som ska rapporteras som ett typiskt värde.
Tre alternativa mått som beskriver var fördelningens centrum ligger är typvärde (mode), medelvärde (mean), och median.
Numeriska variabler - medelvärde (mean)
Anta att vi har 7 observationer av en variabel som vi kallar \(x\):
Uttrycket \(\bar x\) är medelvärdet för variabeln \(x\). Ett \(x\) med en linje över kan uttalas “x bar”. På samma sätt är \(\bar y\) medelvärdet för variabeln \(y\), osv.
Bokstaven \(n\) brukar användas som symbol för antalet observationer i vårt dataset. Om vi, som i exemplet, har 7 observationer är \(n=7\).
Uttrycket \(\sum_{i=1}^n x_i\) är summan av alla värden av variabeln \(x\), dvs
\[\sum_{i=1}^n x_i = x_1+x_2+x_3+...+x_n\]
Numeriska variabler - median
Medianen är ett värde som är större än ungefär hälften av observationerna och mindre än ungefär hälften av observationerna. Att vi säger ungefär beror på att antalet observationer inte alltid är jämnt delbart med 2.
Figuren visar åldersfördelningen för Titanics besättning. Anta att de blå staplarna i figuren representerar lika många personer som staplarna i beige. Antalet besättningsmän på Titanic som är under 30 år är då lika stort som antalet över 30 år. Medianåldern är alltså omkring 30 år.
Numeriska variabler - median
Vi hittar medianen på följande sätt:
Sortera observationerna från lägsta till högsta värde.
Om antalet observationer är udda, identifiera den mittersta observationen. Värdet på denna är detsamma som medianen. Om antalet observationer är jämnt, identifiera de två observationerna som ligger i mitten. Medelvärdet av dessa två är detsamma som medianen.
Numeriska variabler - median
Exempel med udda antal observationer
Vi har variabeln \(x\) med följande 5 värden:
x
14.7
2.2
1.7
3.09
3.11
Vi börjar med att sortera våra värden i storleksordning.
x
1.7
2.2
3.09
3.11
14.7
Värdet i mitten av den sorterade listan är 3.09, så medianen är 3.09.
Numeriska variabler - median
Exempel med jämnt antal observationer
Vi har variabeln \(x\) med följande 6 värden:
x
14.7
2.2
1.7
3.09
3.11
16.3
Vi börjar med att sortera våra värden i storleksordning.
x
1.7
2.2
3.09
3.11
14.7
16.3
De två värden som ligger i mitten av listan är 3.09 och 3.11. Medelvärdet av dessa värden är \((3.09-3.11)/2=3.10\). Medianen är alltså 3.10.
Numeriska variabler - median, medelvärde eller typvärde
Om fördelningen är symmetrisk, som i bilden till vänster brukar skillnaden vara liten mellan de olika måtten.
Om fördelningen är skev, som i bilden till höger, påverkas medelvärdet mer av värden ute i svansarna.
Outliers kan kan stor påverkan på medelvärdet, men inte på medianen.
Numeriska variabler - median, medelvärde eller typvärde
Vilket värde som bör rapporteras beror på syftet.
Om du säljer biljetter till en båtresa och vill du veta hur stora intäkterna blir är du förmodligen intresserad av medelvärdet av biljettpriset.
En köpare som undrar vad en typisk biljett kostar är kanske mer intresserad av medianpriset, som inte påverkas av priset på de allra dyraste biljetterna.
Numeriska variabler - fördelningens spridning
Den gula och den ljusblå fördelningen har ungefär samma medelvärde, men olika spridning.
Om histogrammen visar inkomstfördelningen i två länder så representerar det gula ett land där lönenivåerna är mer lika, och det ljusblå ett land där inkomstskillnaderna är större.
Numeriska variabler - fördelningens spridning
Det finns olika mått på hur stor spridningen är:
Variationsbredd (range)
Standardavvikelse (standard deviation)
Kvartilavstånd (interquartile range)
Numeriska variabler - Variationsbredd
Variationsbredden mäter avståndet mellan den största och den minsta observationen.
Variationsbredden påverkas kraftigt av outliers.
Exempel
Bland Titanics besättningsmän var den äldsta 62 år och den yngsta 14. Variationsbredden för den åldersvariabeln är alltså \(62 − 14 = 48\).
Numeriska variabler - Standardavvikelse
Standardavvikelsen anger hur mycket observationerna avviker från medelvärdet.
För att räkna ut standardavvikelsen är det lättast att först räkna ut variansen, som vi betecknar \(s^2\). Variansen, som är standardavvikelsen i kvadrat, räknas ut med formeln
\[s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1},\] där \(n\) är antalet observationer.
Standardavvikelsen, som vi betecknar \(s\), är kvadratroten ur variansen:
Uttrycket \((y_i - \bar{y})^2\) är den kvadrerade skillnaden mellan observationen \(y_i\) och medelvärdet av \(y\).
Uttrycket \(\sum_{i=1}^n(y_i - \bar{y})^2\) är alltså summan av dessa kvadrerade skillnader.
\[\sum_{i=1}^n(y_i - \bar{y})^2 = (y_1 - \bar y)^2 + (y_2 - \bar y)^2 + ... + (y_n - \bar y)^2,\] där \(y_n\) är vår sista observation. För att kunna göra uträkningen måste vi först ha räknat ut medelvärdet \(\bar y\).
Anta att vi har nio säckar med jord, och som ett mått på hur mycket vikten skiljer sig åt mellan säckarna vill vi räkna ut standardavvikelsen.
Variabeln \(y\) på första raden i nedanstående tabell anger vikten på varje säck i kg. Medelvikten är \(\bar{y}=(23+27+22+11+18+26+19+13+28)/9 = 20.78\) kg.
På andra raden i tabellen räknar vi ut \((y_i - \bar{y})^2\) för varje observation. För \(y_1\) får vi till exempel \((23-20.78)^2=4.93\). För \(y_2\) får vi \((27-20.78)^2=38.69\).
På tredje raden räknar vi ut summan av alla värden från andra raden. \(\sum_{i=1}^9 (y_i - \bar{y})^2 = 4.93+38.69+1.49+95.65+7.73+27.25+3.17+60.53+52.13=291.57\)
Vi har räknat ut att \(\sum_{i=1}^9 (y_i - \bar{y})^2 = 291.57\), och vi vet att antalet observationer är \(n=9\). Om vi sätter in våra värden i formeln får vi
\[s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} = \cfrac{291.57}{9-1} = 36.446\] Genom att ta kvadratroten ur variansen får vi standardavvikelsen:
\[s = \sqrt{s^2} = \sqrt{36.446} = 6.037\]
Vi har räknat ut att standardavvikelsen för vikten på jordsäckarna är 6.037 kg.
Numeriska variabler - Kvartiler och Kvartilavstånd
Ett annat mått på spridning är Kvartilavstånd (interquartile range).
För att förstå vad det är måste vi först förstå vad kvartiler (quartiles) är.
En fördelning kan delas upp i fyra lika stora delar med hjälp av tre kvartiler, som vi kallar Q1, Q2 och Q3.
Bilden visar värden på en variabel som sorterats i storleksordning.
Numeriska variabler - Kvartiler och Kvartilavstånd
Q1: är ett värde som är större än 25% av observationerna och mindre än de övriga 75% av observationerna.
Q2: är ett värde som är större än 50% av observationerna och mindre än de övriga 50% av observationerna. Q2 är samma sak som medianen.
Q3: är ett värde som är större än 75% av observationerna och mindre än de övriga 25% av observationerna.
Numeriska variabler - Kvartiler och Kvartilavstånd
Det finns ingen entydig regel för hur kvartilerna räknas ut. I De Veaux et al(2021) föreslås följande metod:
Sortera observationerna i storleksordning.
Identifiera medianen, som är samma sak som Q2.
Om det finns ett jämnt antal observationer så dela in dem två lika stora delar, en med lägre värden och en med högre värden. Om det är ett udda antal observationer, gör samma sak men låt observationen i mitten ingå i båda delarna.
Räkna ut medianen för observationerna med lägre värde. Detta är Q1.
Räkna ut medianen för observationerna med högre värde. Detta är Q3.
Numeriska variabler - Kvartiler och Kvartilavstånd
Kvartilavståndet (Interquartile range) kan räkas ut som avståndet mellan Q3 och Q1.
\[\text{IQR} = \text{Q3} - \text{Q1}\] För fördelningen nedan kan IQR beräknas